其他
不服 SOLO:腾讯绝悟 AI 击败王者荣耀顶尖职业玩家
腾讯王者荣耀人工智能「绝悟」的论文终于发表了。在研究测试中,AI 玩露娜和顶级选手单挑时也赢了个 3:0。
在系统设计方面,研究者提出了一种深度强化学习框架,能提供可扩展的和异步策略的训练。
在算法设计方面,研究者开发了一种用于建模 MOBA 动作决策的 actor-critic 神经网络。
目标注意力机制;用于帮助 AI 在 MOBA 战斗中选择目标。
LSTM;为了学习英雄的技能释放组合,以便 AI 在序列决策中,快速输出大量伤害。
动作依赖关系的解耦;用于构建多标签近端策略优化(PPO)目标。
动作掩码;这是一种基于游戏知识的剪枝方法,为了引导强化学习过程中的探索而开发。
dual-clip PPO;这是 PPO 算法的一种改进版本,使用它是为了确保使用大和有偏差的数据批进行训练时的收敛性。如图 3 所示。